Спрощення тексту

Спрощення тексту – це операція, яка використовується в обробці природною мовою для модифікації, вдосконалення, класифікації чи іншої обробки існуючого корпусу зрозумілого тексту таким чином, що граматика та структура прози значно спрощуються, а основне значення та інформація залишаються так само. Спрощення тексту є важливою сферою досліджень, оскільки природні людські мови зазвичай містять великі словникові запаси та складні конструкції, які не легко обробити за допомогою автоматизації . З точки зору зменшення мовної різноманітності може застосовуватися семантична компресія для обмеження та спрощення набору слів, що використовуються в даних текстах.

Приклад

Спрощення тексту показано на прикладі Сіддхартана (2006)^[1]. Перше речення містить два відносні речення та одне поєднане дієслівне словосполучення. Система спрощення тексту спрямована на спрощення першого речення до другого речення.

Аналітик також зазначив, що зміцненню міді сприяє звіт чиказьких закупівельних агентів, який передує повному звіту закупівельних агентів, який повинен бути представлений сьогодні, і вказує, що може містити повний звіт.

Аналітик також зазначив, що зміцненню міді також сприяє звіт чиказьких закупівельних агентів. Чиказький звіт передує повному звіту закупівельних агентів. Чиказький звіт дає вказівку на те, що може містити повний звіт. Повний звіт має вийти сьогодні. Одним із підходів до спрощення тексту є лексичне спрощення за допомогою лексичної заміни, двоступеневий процес, що складається із виявлення складних слів та заміни їх простішими синонімами. Ключовою проблемою тут є визначення складних слів, яку виконує класифікатор машинного навчання, навчений на маркованих даних. Поліпшення порівняно з класичними методами застосування двійкових міток до простих чи складних слів полягає в тому, щоб попросити науковців коригувати слова в порядку складності; це призводить до вищої узгодженості отриманих міток.^[2]

Примітки

↑ Siddharthan, Advaith (28 березня 2006). Syntactic Simplification and Text Cohesion. Research on Language and Computation. 4 (1): 77—109. doi:10.1007/s11168-006-9011-1. S2CID 14619244.
↑ Gooding, Sian; Kochmar, Ekaterina; Sarkar, Advait; Blackwell, Alan (August 2019). Comparative judgments are more consistent than binary classification for labelling word complexity. Proceedings of the 13th Linguistic Annotation Workshop (амер.): 208—214. doi:10.18653/v1/W19-4024. Архів оригіналу за 14 січня 2021. Процитовано 22 листопада 2019.

Джерела

Wei Xu, Chris Callison-Burch and Courtney Napoles. "Problems in Current Text Simplification Research [Архівовано 24 квітня 2018 у Wayback Machine.]". In Transactions of the Association for Computational Linguistics (TACL), Volume 3, 2015, Pages 283–297. (англ.)
Advaith Siddharthan. "Syntactic Simplification and Text Cohesion [Архівовано 20 січня 2021 у Wayback Machine.]". In Research on Language and Computation, Volume 4, Issue 1, Jun 2006, Pages 77–109, Springer Science, the Netherlands. (англ.)
Siddhartha Jonnalagadda, Luis Tari, Joerg Hakenberg, Chitta Baral and Graciela Gonzalez. Towards Effective Sentence Simplification for Automatic Processing of Biomedical Text. In Proc. of the NAACL-HLT 2009, Boulder, USA, June. [1] (англ.)

Посилання

Automatic Induction of Rules for Text Simplification [Архівовано 22 вересня 2017 у Wayback Machine.] (pdf)
Text Simplification for Information-Seeking Applications [Архівовано 25 квітня 2021 у Wayback Machine.]

[1] Siddharthan, Advaith (28 березня 2006). Syntactic Simplification and Text Cohesion. Research on Language and Computation. 4 (1): 77—109. doi:10.1007/s11168-006-9011-1. S2CID 14619244.

[2] Gooding, Sian; Kochmar, Ekaterina; Sarkar, Advait; Blackwell, Alan (August 2019). Comparative judgments are more consistent than binary classification for labelling word complexity. Proceedings of the 13th Linguistic Annotation Workshop (амер.): 208—214. doi:10.18653/v1/W19-4024. Архів оригіналу за 14 січня 2021. Процитовано 22 листопада 2019.

[1]

[2]

п о р Обробка природної мови
Загальні терміни	Розуміння природної мови Корпус текстів Корпус мовлення Стоп-слова Торба слів AI-повнота N-грама (Біграма, Триграма)
Аналіз тексту	Сегментація тексту^[en] Розмічування частин мови Поверхнево-синтаксичний аналіз Обробка складних слів^[en] Видобування колокацій^[en] Стемінг Лематизація Розпізнавання іменованих сутностей Розв'язання кореферентності Аналіз тональності тексту Виокремлення концептів^[en] Синтаксичний аналіз Вирішення лексичної багатозначності^[en] Навчання онтологій^[en] Видобування термінології Видобування інформації Визначення регістру^[en]
Автоматизоване реферування	Багатодокументне реферування^[en] Видобування речень^[en] Спрощення тексту
Машинний переклад	Автоматизований переклад На основі прикладів На основі правил^[en] На основі словника^[en] На основі трансформації^[en] Нейронний Гібридний^[en] Інтерлінгвіальний^[en] Статистичний
Автоматична ідентифікація і збір даних	Розпізнавання мовлення Синтез мовлення Оптичне розпізнавання символів Генерація природної мови
Тематичне моделювання	Розміщення патінко^[en] Приховане розміщення Діріхле^[en] Латентно-семантичний аналіз
Автоматизоване рецензування^[en]	Автоматизоване оцінювання творів (в освіті)^[en] Конкордансер Система перевірки граматики^[en] Система перевірки орфографії Предиктивне введення тексту Вгадування синтаксису^[en]
Інтерфейс користувача природною мовою^[en]	Автоматизований онлайн-помічник Чат-бот Інтерактивна література Питально-відповідна система Голосовий інтерфейс користувача
Програмне забезпечення	Natural Language Toolkit SpaCy

Спрощення тексту

Статус версії сторінки

Зміст

Приклад

Примітки

Джерела

Посилання

Навігаційне меню

Спрощення тексту

Приклад

Примітки

Джерела

Посилання

Навігаційне меню

Пошук